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摘 要 : 针对 解决 双语 旭 窃 的 检测 问题 ， 给 出 了 一 种 跨 语 言 覃 窃 检 测 模型 。 该 模型 包括 了 基于 多 特征 选择 的 跨 语言 旭 
窃 分 类 和 基于 多 特征 对 应 的 跨 语 言 慢 窃 检 测 。 该 方法 主要 是 根据 译 者 在 进 译 时 出 现 的 欧 化 现象 挖掘 出 常见 的 译文 
特征 ， 在 对 特征 进行 进一步 的 特征 选择 和 特征 权 值 的 计算 后 ， 训 练 分 类 器 ， 针 对 是 否 存 在 跨 语 言 旭 窃 行 为 进行 分 类 ， 

最 后 通过 WordNet 进行 最 后 的 旭 窃 确认 。 通 过 实验 对 比 和 实验 分 析 ， 分 别 进行 了 分 类 结果 和 检测 结果 的 验证 ， 证 明了 


所 给 出 的 模型 的 有 效 性 和 科学 性 
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Research on construction technology of cross-language plagiarism 
detection model based on multi-features 


Liu Gang, Hu Yulin, Li Guangxi 
(College of Computer Science & Technology, Harbin Engineering University, Harbin 150001, China) 


Abstract: In order to solve the problem of bilingual plagiarism, this paper constructed a multi-feature-based cross-language 
plagiarism detection model. This paper firstly analyzes and summarizes the research status of single and double language 
plagiarism, and proposes a multi-feature-based cross-language plagiarism detection model. The model includes multi-feature- 
selection-based cross-language plagiarism classification and multi-feature-correspondence—based cross-language plagiarism 
detection. The results of plagiarism filtering two times is mainly based on the correspondence between translation features and 
structural features. Finally, the last plagiarism is confirmed by WordNet. In this paper, the transcendental plagiarism model is 
established, and the results of the classification and the test results are verified by experimental comparison and experimental 
analysis. The validity and scientificity of the model are proved. 
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Re 和 形态 语法 进行 改变 或 者 通过 对 概念 的 归纳 、 总 结 和 解释 的 一 

1 ”到 穷 检测 理论 Re 
种 简 窃 手法 ; b) 翻 译 是 指 通过 自动 翻译 (精确 翻译 、 平 行 语 料 

1.1 剩 窃 的 分 类 库 等 ) 或 者 手动 翻译 将 一 种 语言 翻译 为 男 一 种 语言 而 没有 经 过 


简 窍 分 为 字面 简 窍 和 智能 旭 穷 。 其 中 字面 璋 穷 是 比较 常见 。 引用, 也 能 够 引起 列 窃 , o) 观 点 简 窃 是 影响 最 严重 的 简 窃 , 它 是 
的 ， 它 并 没有 刻意 去 隐藏 所 简 穷 的 内 容 ， 只 是 通过 复制 粘贴 来 ” 指 窃 取 了 别人 的 观点 却 没有 经 过 引用 。 

达到 列 穷 目的 。 字 面 有 窍 又 分 为 如 下 三 种 : WA 是 指 不 ”1.2 跨 语 言 文本 相似 度 算法 
经 过 任何 修改 ， 仅 仅 对 某 一 段落 或 者 某 一 整 篇 文章 进行 复制 ; 基于 机 器 翻译 是 跨 语 言 相似 度 计算 中 最 直接 、 最 简单 的 


bp) 相似 复制 是 指 通过 插入 、 删 减 、 代 替 、 句 子 分 离 或 合并 等 手 ”种 方式 。 它 是 通过 将 两 种 语言 统一 为 同一 种 形式 来 进行 相似 怡 


A 


a 


段 进 行 操作 后 再 复制 ，c) 修 改 复制 是 指 通过 短语 重 排序 或 对 语 比较 ， 从 而 实现 跨 语言 相似 度 的 计算 。 

法 的 改变 进行 修改 ， 然 后 再 据 为 已 所 用 。 总 的 来 说 ， 字 面 旭 窃 基于 多 语言 词典 的 算法 主要 是 通过 双语 词典 对 应 来 进行 匹 

就 是 做 了 很 少 的 改动 而 没有 引用 原文 章 。 配 的 。 在 CLIR 和 CLSD 中 都 有 应 用 ， 起 初 由 CLIR 兴起 ， 现 
而 智能 副 窃 是 指 用 各 种 方式 来 试图 隐藏 和 改变 原文 章 。 它 发 展 到 CLSD 并 取得 了 良好 的 效果 。 其 中 比较 典型 的 算法 是 

主要 也 分 为 了 以 下 三 种 方式 : a) 文本 处 理 是 指 将 文本 通过 词汇 CL-CNG (cross-language charater N-Gram) 算法 021。 
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值得 说 明 的 是 ，CL-CNG 算法 只 适用 于 两 种 相近 的 语言 ， 
但 并 不 适用 于 汉语 和 英语 这 两 种 区 别 很 大 的 语言 。 
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形式 为 以 下 七 种 情况 : a) 外 来 词 及 词 绥化: b) 字母 词 使 用 ; 
c) 连词 增多 ; d) 词类 活用 ; e) 助词 、 数 量词 、 代 词 滥用 ; 全 


这 类 算法 中 最 为 典型 的 就 是 跨 语 言明 确 语义 分 析 算 法 


(CL-ESA)。 它 是 ESA 算法 的 扩展 。 由 Martin Potthast 等 人 在 
2008 年 提出 的 。 
在 引入 CL-ESA 算法 之 前 , 先 介绍 ESA 算法 。ESA 算法 是 
单 语 言 之 间 的 语义 相似 度 分 析 算 法 ， 它 是 由 Wikipedia 作为 概 
念 空间 , 将 文本 向 量 用 向 量 空间 模型 表示 , 然后 使 用 TF-IDF 计 
算 其 权 值 ， 再 根据 概念 空间 中 概念 权 值 列 表 表示 文本 ， 通 过 余 
弦 相 似 度 计算 两 个 向 量 之 间 的 相似 性 。 
设 文本 T={w,w,….,w.}， 首先 通过 TF-IDF 计算 其 单词 权 
重 1={v,v， py VvV.} ， 即 表示 w, 的 权重 是 v,， 1l<i<x; 
{c,cscw} 是 概念 空间 集合 ， 设 w 与 c; 的 关联 程度 是 x, ， 那 


到 
| 


么 对 应 维度 j 的 数值 可 表示 为 > vk,。 当 计算 两 段 文本 相似 


weT ij 


时 ， 只 需 将 其 用 N 维 向 量 表示 ,然后 用 余弦 定理 计算 其 相似 性 


同 理 ，CL-ESA 类 似 P01， 只 是 将 ESA 算法 扩展 到 跨 语言 方 
看 ， 是 基于 双语 Wikipedia 建立 的 概念 空间 ， 且 两 者 是 概念 对 
齐 的 。 其 过 程 如 图 1 所 示 。 
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图 1 CL ESA 算法 结构 


2 ”基于 多 特征 选择 的 跨 语 言 旭 窃 分 类 


对 于 跨 语 言 列 窃 来 说 ， 首 先 应 确定 某 篇 文章 是 否 存在 跨 语 
言 和 穷 ， 将 存在 跨 语言 简 鳃 的 文章 找 出 ， 进 而 才能 确定 此 文章 
中 哪些 段落 或 哪些 部 分 存在 跨 语言 慢 窃 现 象 。 针 对 以 上 问题 ， 
本 章 主 要 是 从 具有 跨 语 言 列 窍 的 中 文 文章 中 发 现 并 选择 其 有 效 
的 译文 特征 ， 给 予 不 同 的 特征 权重 ， 构 建 具有 跨 语言 剩 窃 的 分 
类 模型 ， 能 够 对 给 定 的 中 文 文章 进行 分 类 ， 检 测 其 中 哪 几 篇 中 
文 文章 中 可 能 存在 简 窃 行为 ， 而 哪 几 篇 文章 不 存在 列 窃 行为 。 
2.1 英汉 翻译 中 的 欧 化 现象 和 翻译 体 问 题 发 现 

翻译 体 是 欧 化 现象 的 表现 ， 是 指 翻译 出 来 的 译文 有 欧 化 现 
象 或 不 符合 汉语 的 习惯 表达 方式 ， 也 叫 翻译 腔 、 翻 译 症 。 文 献 
P9 中 将 其 译 为 “translationese”。 而 所 谓 的 欧 化 ， 也 叫 西 化 ， 是 
指 语法 、 文 笔 、 风 格 或 用 词 受 欧 洲 语文 过 份 影响 的 中 文 ， 影 响 
中 尤 以 英文 所 造成 的 最 为 深刻 31。 欧 化 中 文 在 语言 表达 和 词语 
运用 上 都 略 显 生硬 ， 并 且 比 较 容易 辨别 。 
上 海外 国语 大 学 的 李 上 颖 玉 博 士 总 结 了 常见 的 欧 化 翻译 表现 


长 句 和 元 长 句 ; g) 被 动 句 使 用 增多 、 标 记 显 化 和 单一 化 倾向 明 
显 等 。 
由 此 可 见 ， 在 英汉 语言 相互 影响 的 诸多 因素 中 ， 词 汇 和 语 
法 的 影响 比较 显著 ， 是 区 分 欧 化 翻译 的 最 主要 的 表现 形式 。 中 
国 闭 名 语言 学 家 王 力 先生 曾 在 文献 [7 了 ] 中 的 第 六 章 “ 欧 化 的 语法 ” 
一 整 章 都 在 探讨 欧 化 现象 ， 并 对 一 些 “恶意 欧 化 ”现象 提出 了 
批评 “恶意 欧 化 ”现象 不 仅仅 存在 于 不 是 以 翻译 作为 本 职工 作 
的 人 ， 而 且 对 于 那些 优秀 的 翻译 家 而 言 ， 也 会 存在 丝 漏 ， 何 况 
是 对 于 不 同 领域 的 文章 。 所 以 ， 抽 象 出 其 中 的 译文 特征 来 确定 
某 一 篇 文章 存在 跨 语 言 穷 问题 是 可 以 解决 的 ， 构 建 并 选择 合 
里 的 译文 特征 是 构建 分 类 模型 的 关键 。 
2.2 ”特征 选择 一 一 对 卡 方 检验 的 改进 

本 文 利用 卡 方 检验 进行 初步 的 译文 特征 选择 ， 并 且 基 于 
CHI 不 足 ， 对 CHI 进行 了 改进 ， 旨 在 能 够 去 除 一些 出 现 频数 较 
低 的 且 在 类 别 中 不 稳定 的 特征 ， 精 确 找 出 有 效 的 特征 来 精确 分 


了 (j=1,2) 篇 文章 ， 特 征 项 * 在 每 篇 文章 中 


出 现 的 频数 是 #f,#,,…,tf,, 则 特征 项 4 在 c, 中 的 平均 频数 如 式 
CD 所 示 。 


_ CD 


和 
i 
n. 
i 


之 所 以 在 分 母 中 用 所 有 文章 数 而 不 用 只 存在 特征 项 上 的 文 
章 数 ， 是 为 了 防止 低频 词 只 在 少 部 分 文章 中 出 现 较 多 ， 而 在 绝 
大 多 数 文章 中 不 出 现 的 情况 。 这 样 的 情况 下 将 会 使 频 度 w 变 大 ， 
对 稀有 词 的 区 分 度 不 高 。 由 此 定义 特征 项 * 的 频数 之 差 并 使 2 
一 化 ， 得 


(24 


Ms 


CQ 一 Qt 
Qt) =— ee O) 
max(Q, ,Qu ) 


这 样 的 话 ,将 其 取 值 规定 到 [0,1] 区 间 上 。 其 频 度 之 差 越 大 ， 
越 能 反映 出 其 区 别 能 力 越 强 ， 式 (C2) 解决 了 CHI 的 第 一 个 不 足 ， 
通过 引入 w 来 区 分 特征 的 频数 问题 。 

针对 第 二 点 不 足 ， 本 文 引 入 了 信息 粒 。 信 息 粒 是 用 来 表示 
随机 变量 的 不 确定 性 的 度量 ， 它 起 源 于 物理 学 ， 用 来 表征 物质 
状态 的 参量 之 一 。 它 主要 指 任意 一 种 能 量 在 空间 中 分 布 的 均匀 
个 取 有 限 个 值 的 离散 随机 变量 ， 其 概率 分 布 为 
p(X=x)=p,, i=1,2,...,n G) 
则 随机 变量 的 炳 定义 为 


程度 . 设 广 是 


n 


H(X)=-2, p(x)log p(%) 4) 


i=l 


其 中 :0< A(X)<logn ,HH(X) 越 小 ,分 布 越 不 均匀 。 


在 本 文中 ， 需 要 判断 特征 4 在 指定 类 别 c, 中 的 分 布 均匀 状 
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况 。 不 妨 设 4d.(0<kzn) 为 类 别 c,(j=1,2) 中 的 第 大 篇 文章 ， 则 
特征 项 4 在 类 别 c, 中 信息 粹 表示 如 式 (5) 所 示 。 


n if (1,,d,) tf (td) 
H 二 全 1 
(ch Ze) tf (fi,c)) . 


其 中 : yf(4,d) 表示 特征 项 上 在 文章 d, 中 出 现 的 次 数 ; #f (4,c)) 
为 特征 项 在 类 别 c, 中 出 现 的 总 次 数 。H(i,c)) 越 大 , 说 明 分 布 
越 均 匀 ， 其 特征 项 效果 越 好 。 规 定 如 果 某 特征 在 该 类 别 中 不 存 
在 ,， 则 HG,c))=1。 

定义 


H(t,c,) 
其 中 HG,c)) 为 特征 项 4 在 类 别 c, 中 的 信息 米 。 当 在 c 类 中 
越 稳定 , 在 c, 类 中 越 不 稳定 , 则 (7) 的 值 越 大 , 越 能 代表 到 窃 
类 c 。 这样, 对 于 所 有 的 特征 项 1 ,t,t 对 应 的 太 (1,)， 将 其 进 
行 归 一 化 ， 得 


H(t)= (6) 


H(t) 


Ho(t,) 加 max(H(1),H(,),..., H(t)) 


(7) 


显然 ，Ho(t,) e[0,1] 。 
综 上 所 述 ， 定 义 新 的 CHI 方式 : 
CHI,,, (tC) =kP +ka(t,) + ksHo(t,) (8) 

其 中 : PP 为 xy?(1,c) 值 查询 卡 方 分 布 的 临界 值 表 得 到 的 概率 ; 
Q(t) 为 特征 项 1 平均 频数 之 差 ， Ho(i,) 为 特征 项 1 在 类 别 中 的 
言 息 烂 。 后 两 者 都 进行 了 归 一 化 处 理 ， 故 三 者 都 在 [0,1] 内 。 
记 ,k,k 为 每 个 因素 的 权重 。CHI,,,(t,,c) 的 值 越 大 , 说 明 该 特征 
区 分 度 越 高 ， 是 有 效 的， 其 值 越 小 说 明 该 特征 区 分 度 越 低 ， 是 
无 效 的 。 
2.3 SVM 模型 训练 
本 文采 用 非 线性 支持 向 量 机 作为 模型 ， 选 用 RBF (radial 
basis fonction， 径 向 基 函 数 ) 作为 核 函数 ， 最 后 经 过 学 习 要 得 到 
分 类 决策 函数 是 


f(x) =sign(D 0 y,K(x%, Xx)+b) (9) 
i=l 
其 中 : RBF 为 
有 2 
eye 和 (10) 
20 


其 具体 的 SVM 分 类 模型 构建 及 求解 方法 如 算法 1 所 示 。 
算法 1 基于 译文 特征 的 SVM 模型 构建 与 求解 算法 
输入 : 训练 数据 集 D 以 及 特征 7。 
输出 判断 是 否 科 窃 的 分 类 模型 f(x) 。 
T={0,7),(%, 2),., (Xs yw)}» 

XEeX=R", yer={+,-1),i=1,2..N 

选取 参数 C， 用 RBF 代替 内 积 ， 得 到 SVM 的 对 偶 问 题 
取 初 值 wo =0， 令 大 =0: 

while( 当 a 存在 不 满足 KTT 条 件 的 变量 ) 

选取 优化 变量 ct ,ww ; 

将 对 偶 问题 转换 为 式 2-21) 的 形式 ; 
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得 到 最 优 解 gt ,gD ， 并 更 新 a 为 we ; 


让 (a 在 精度 e 内 满足 KTT 条 件 ) 
break:; 


end if V/ 如 果 满 足 KITT 条 件 就 跳出 循环 


开 十 十 


end while 


取 


k+l 
a= 


这 样 ， 根 据 求 出 的 最 优 解 y* 来 计算 p* 
1 ex b’ 可 得 其 分 类 模型 f(x) 

算法 1 说 明了 基于 多 种 译文 特征 的 SVM 
求解 过 程 。 首 先 将 原始 问题 转换 为 对 偶 问 题 ， 


分 类 器 的 构建 和 
然后 运用 第 二 也 


提 到 的 SMO 算法 对 不 满足 约束 条 件 的 变量 进 
有 变量 都 满足 KTT 条 件 , 进而 根据 求解 出 来 的 
类 模型 。 


3 ”基于 多 特征 对 应 的 跨 语 言 午 窃 检 测 


进行 分 类 模型 构建 后 ， 给 出 一 篇 中 文 文章 


行 更 新 ， 直 到 所 
最 优 解 来 求 得 分 


， 可 以 判断 是 否 


进行 了 跨 语 言 列 窃 。 在 确认 该 篇 文章 是 存在 跨 


语言 则 穷 时 ， 需 


要 进一步 确认 具体 璋 窃 了 哪 一 篇 文章 ， 进 而 精 


确 到 简 窃 了 哪 


个 段落 。 本 章 基 于 上 述 问 题 ， 提 出 了 基于 多 特 
科 窃 检测 方法 ， 本 章 是 上 一 章 的 延续 ， 通 过 上 
候选 集 ， 将 进一步 精确 分 析 其 特征 对 应 情况 ， 
体位 置 。 
3.1 基于 译文 特征 对 应 的 剩 窃 结果 一 次 过 滤 

根据 英汉 翻译 中 的 欧 化 现象 和 翻译 体 问题 


征 对 应 的 跨 语 言 
一 章 得 到 的 列 窃 


确认 出 旭 窃 的 具 


， 构 建 出 了 在 中 


文 文章 中 存在 的 译文 特征 ， 并 且 根 据 译 文 特 征 
旨 窃 的 中 文 文章 。 换 一 种 思路 来 想 ， 中 文中 的 
应 到 英文 中 也 是 存在 的 ， 可 以 根据 中 英文 译文 
来 进一步 确定 具体 的 种 窃 结果 。 
每 个 特征 在 每 句 话 中 的 特征 表示 进行 加 权 


找 出 了 可 能 存在 
译文 特征 如 果 对 
特征 出 现 的 位 置 


， 得 到 两 个 n 维 


有 序 向 量 ， 这 两 个 向 量 即 为 n 个 特征 在 要 比较 
的 特征 表示 ， 计 算出 这 两 个 向 量 的 欧 氏 距离 即 
离 。 距 离 越 短 ， 说 明 这 两 个 段落 越 相 似 。 


的 中 英文 段落 中 
为 段落 之 间 的 距 


例 1 图 2 和 3 分别 是 中 文 段落 及 其 对 应 的 英文 段落 。 


FEF 来 ， 在 许多 行业 
大 需求 。][ 我 们 在 文件 
E 为 基础 ， 可 以 开发 


要 特征 是 单 拷贝 数据 一 致 性 ， 动 


于 云 的 应 月 


基于 云 的 Web 应 用 程序 。][ 这 种 提出 的 架 


态 负载 平衡 


性 能 。][ 基于 软件 层 ， 已 经 指 


广 SaaS 概念 的 智能 数据 管理 系统 , 其 提 


[a 
| 


BJ 
出 了 用 了 


及 云 环境 的 成 本 有 效 的 解决 方案 。] 
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图 2 “中文 段落 示例 1istadd( 六; // 保 存 该 旭 窃 段落 
map.put(i,list); 7/ 将 所 有 通过 筛选 的 弱 窍 结果 放 入 以 P 为 key 的 map 


[In recent years, there is tremendous demand of cutting-edge 和 


cloud-based applications in many of the industries. |[We have 


返回 map 值 

本 文选 取 了 人 句子 的 长 度 、 句 子 中 名 词 的 长 度 、 句 子 中 动词 

的 长 度 、 句 子 中 形容 词 的 长 度 、 句 子 中 副词 的 长 度 五 种 结构 特 

E, 用 来 对 璋 窍 候选 集 进行 进一步 第 选 和 过 滤 , 如 算法 2 所 示 。 
算法 2 给 定 了 五 种 特征 的 阔 值 ， 给 定 一 篇 中 文 列 窃 段落 和 

上 一 小 节 筛 选 出 来 的 一 次 过 滤 的 副 窃 结 果 进行 比较 ， 如 果 

某 个 特征 超出 特定 闵 值 ， 则 将 其 从 其 简 穷 结果 中 进行 过 滤 ， 过 


proposed in the paper a shared disk cloud database architecture 


as the basis on which an intelligent data storage management 


system can be developed for enriching cloud-based web 


ES 


applications.][ Important features of this proposed architecture 


are single copied data consistency, dynamic load balancing 


and high benchmark performance.][ Based on the software 


layer, an intelligent data management System for popularizing 


滤 之 后 剩余 的 段落 即 为 二 次 过 滤 后 的 简 窃 结果。 
the concept of SaaS has been pointed out suggesting a cost- 3.3 ”基于 wordnet 的 到 窃 结果 最 终 认定 
effective solution for popularizing the cloud environment.] 千 进行 两 次 过 滤 之 后 ， 得 到 了 最 终 到 窍 结果 。 到 窃 结果 中 
图 3 英文 段落 示例 可 能 只 有 一 个 段落 ， 即 已 经 找 出 中 文 段落 所 旨 窃 的 英文 段落 ， 
首先 根据 选择 出 来 的 特征 进行 中 英文 特征 的 对 应 。 在 中 文 ” 只 是 从 语义 上 待 进一步 确认 ; 也 可 能 是 多 个 段落 ， 需 要 从 多 个 
段落 中 ， 特 征 对 应 的 算 阵 为 段落 中 精确 找 出 简 究 的 段落 。 鉴 于 此 ， 本 节 引 入 基于 WordNet 
人 的 跨 语言 文本 相似 度 的 计算 方法 2 来 进行 最 终结 果 的 确认 。 
0 有 00 .fy 0.0 ty 0 在 进行 名 词 消 歧 后 ， 每 一 个 名 词 都 能 得 到 一 个 有 用 的 指纹 
0 0 0 … 0 …00 ty … 0 学 列 ， 但 并 不 是 所 有 的 名 词 都 是 有 用 的 。 有 些 名 词 出 现 频率 很 
人 ee 针 ， 不 具有 上 典型 性 ， 诸 如 此 类 的 都 需要 进行 过 滤 ， 留 下 分 辩 率 
在 英文 段落 中 ， 特 征 对 应 的 矩阵 为 : 较 大 的 指纹 来 进行 相似 度 的 计算 。 
0 0 00 .. 21, fei0 0 .0] 本 文采 取 与 TF-IDF 计算 权重 类 似 的 方法 来 选取 指纹 。 对 
是 于 一 些 多 次 出 现 的 名 词 , 即 它 的 TF 大 , 给 予 保留 ,而 对 于 逆 文 
0 0 08 0 0.0 ty 0 档 频率 IDF 的 选取 需要 依赖 于 数据 集 。 因 此 本 文 基于 WordNet 
0 的 同义词 数据 集 在 树 型 结构 中 的 深度 作为 过 滤 特 征集 的 条 件 


于 篇 幅 所 限 ， 英 文中 出 现 的 其 他 特征 值 在 此 没有 表示 ， 00。 深度 越 浅 ， 该 节点 代表 的 含义 越 弱 。 因 此 把 低 100 全 为 0 
但 在 实际 计算 中 不 能 忽略 。 在 这 里 ，1 是 第 三 章 计 算出 来 的 每 ”的 指纹 其 进行 了 过 滤 ， 剩 余 的 指纹 即 为 选取 出 来 的 进行 相似 度 
个 特征 的 权重 值 ， 是 常数 。 与 此 同时 ， 在 将 矩阵 转换 成 段落 向 。 计算 的 指纹 。 


量 之 前 ， 需 要 确定 每 一 句 的 权 值 ， 将 段落 表示 成 矩阵 即 为 在 进行 名 词语 义 哈 希 、 名 词 消 歧 、 指 纹 选取 后 ， 得 到 了 正 
{0.624,...,0.1916,0,0.194,..…,0.5f4,.…,0.1917,…,0.19ts,0.3866,…,0} ” 式 的 哈 希 特征 序列 。 设 语言 ZL 的 输入 文本 4 和 语言 L 的 输入 文 
{0,...,0.19¢,,0,0.194,,...,0.51,,...,0.1917,...,0.191,;,0.381,6,...,0} 本 g' 的 特征 序列 分 别 为 
根据 公式 计算 两 者 之 间 的 欧 氏 距离 d 即 可 。 F(d)={09(5),9(5,),...} 
本 节 利 用 特征 进行 了 中 英文 特征 的 对 应 ， 过 滤 了 不 符合 特 Fl(d)={9(5),9(5,),...} 
征 对 应 的 段落 ， 进 而 将 璋 窃 的 结果 的 范围 大 大 缩小 。 则 通过 Dice 系数 来 计算 文本 d 和 文本 gq' 的 相似 度 ， 如 式 
3.2 ”基于 结构 特征 对 应 的 剩 窃 结 果 二 次 过 滤 (11) 所 示 。 
算法 2 基于 结构 特征 的 段落 过 滤 算法 2x| F(A) A Fd)| jn 
输入 : 中 文员 窃 段 落 Pp， 初步 列 窃 结果 E。 IF(D)I+|F(a)| 
输出 :筛选 后 的 旭 窃 结果 。 这 样 ， 便 可 得 到 两 者 的 相似 度 。 
给 定 阔 值 1,7,,1,,1iw,1is, ， 给 定 第 诗篇 中 文 肌 窃 段落 


4 ”实验 及 验证 


对 于 每 一 篇 保留 段落 忆 


本 实验 的 相关 环境 如 下 : 
if 五 -Ei > 五 -En, > L, | 五 -Ei > L, 实验 平台 : Windows 7(64 位 ); 
处 理 器 : Pentium (R) Dual-Core @2.50 GHz; 
| 已 ， -E jy > Ly | 五 ， -E ji > Li 
内 存 : 4.00 GB; 
该 段落 不 符合 条 件 ; 实验 环境 : MyEclipse, WinPython-64bit-2.7.10.3; 


ELse 开发 语言 : Java，Python; 
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实验 数据 : 本 实验 的 实验 数据 分 为 训练 数据 集 和 测试 数据 
集 两 部 分 。 

a) 训练 数据 集 的 数据 的 正 样本 来 自 Springer 里 面 的 
Computer Science 学 科 下 的 Chapter 下 的 3 500 篇 文章 , 通过 
动 翻译 为 中 文 文本 作为 训练 集中 的 正 样 本 。 训 练 集 数 据 的 负 样 
本 来 自 于 从 中 国 知 网 的 计算 机 软件 与 计算 机 应 用 类 别 中 的 中 国 
学 术 期 刊 网 络 出 版 总 库 ， 里 面包 含 着 由 《计算 机 学 报 》、《 软 件 
学 报 》 等 国内 著名 学 报 的 期 刊 ， 选 取 2 800 篇 中 文 文章 作为 训 
练 集 负 样本 。 

b) 测试 数据 集 为 Springer 中 的 100 英文 文章 和 它们 的 中 
文 翻译 以 及 50 篇 知 网 的 中 文 文章 。 

4.1 第 一 次 过 滤 

在 对 文本 进行 预 处 理 后 ， 如 前 述 方法 将 文本 中 的 特征 提取 
出 来 ， 将 一 些 出 现 频 度 偏 低 的 特征 去 掉 后 ， 将 符合 的 特征 进行 
言 息 烂 的 计算 ， 得 出 每 个 特征 项 的 的 稳定 程度 ， 接 下 来 ， 需 要 
确定 三 个 权重 参数 天, 态 , 扩 的 值 。 根 据 结果 确定 3 个 参数 的 值 复 
杂 度 太 大 ， 显 然 是 不 可 取 的 。 通 过 人 工 排序 和 算法 1 选择 最 优 
参数 为 =0.04， 包 =0.78 ，k=0.13。 其 对 比 结果 如 图 4 所 


不 。 


1 3 5 7 9 11315 1 23212325 27 29313335 37 39 


一 一 参数 排名 一 一 人 工 排 名 特征 值 


图 4 选 定 参数 对 比分 析 图 
在 得 到 特征 权重 之 后 ， 将 训练 集中 的 文章 进行 特征 表示 ， 
然后 运用 SVM 进行 分 类 器 训练 ， 得 到 分 类 模型 。 
基于 译文 特征 做 科 镭 分 类 的 文章 很 少 ， 本 文 将 特征 选择 及 
特征 赋予 的 权重 后 作 训练 得 出 的 三 个 评价 指标 ， 与 特征 选择 后 
及 特征 赋予 的 权重 之 前 作 训练 得 出 的 三 个 评价 指标 和 文献 [18] 
提供 的 特征 训练 所 得 到 的 三 个 指标 作对 比 ， 用 本 文 的 训练 数据 
集 和 测试 数据 集 分 别 进行 封闭 测试 和 开放 测试 ， 其 结果 对 比如 
图 5 和 6 所 示 。 


指标 值 


p_pre p_reca BF n_reca 癌 了 


实用 本 文 特征 和 权重 结果 
应 用 文献 [18] 特 征 结 果 


n_pre 


本 文 特征 未 赋予 权重 结果 


—l 


图 5 封闭 测试 评价 指标 对 比 
从 图 中 可 以 看 出 , 在 封闭 测试 中 , 本 文 方法 与 文献 [18] 相 比 ， 
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除了 在 非 剩 窍 文本 的 召回 率 上 与 文献 [18] 的 方法 持平 以 外 ， 在 
其 余 指 标 上 有 了 很 大 提高 ， 综 合 对 比 F 值 也 有 优势 。 而 在 开放 
测试 中 , 该 优势 更 加 明显 , 各 个 指标 均 领 先 于 其 他 指标 。 所 以 ， 
本 文 针对 跨 语 言 科 鹤 中 特征 的 选取 准确 性 有 了 很 大 提高 ， 证 明 
了 本 文 特征 选取 方法 的 有 效 性 所 在 。 


1.2 


0.6 


五 


指标 值 


p_pre p_reca 让 F n_reca FF 


一 一 应 用 本 文 特征 和 权重 
应 用 文献 [18] 特 征 


n_pre 


本 文 特征 未 赋予 权重 


一 应 


图 6 开放 测试 评价 指标 对 比 


4.2 第 二 次 过 滤 

对 于 一 个 中 文 段 落 的 多 个 英文 段落 ， 将 不 符合 条 件 的 全 都 
过 滤 掉 。 在 对 比 1 000 个 段落 后 ， 有 749 个 段落 经 过 两 次 过 渡 
后 只 保留 了 一 个 可 疑 段落 ， 其 中 有 736 个 段落 精确 匹配 到 其 惠 
窃 的 段落 , 仅 13 个 段落 出 现 了 匹配 错误 的 情况 。 在 剩余 251 个 
段落 候选 集中 ， 有 24 个 段落 经 过 两 次 过 滤 没 有 可 疑 段 落 与 之 
匹配 ， 有 227 个 段落 有 多 个 可 疑 段落 与 之 匹配 。 图 7 展示 了 上 
述 结 果 。 由 图 可 见 此 时 正确 率 已 达 74%。 而 在 227 篇 与 多 个 结 
果 匹 配 的 段落 中 ， 需 要 筛选 出 与 具体 的 简 窃 段落 ， 这 将 借助 
WordNet 词典 完成 最 终结 果 的 确认 工作 。 


则 窃 结果 图 


图 7 惠 窃 结果 


经 统计 ， 在 验证 的 227 个 段落 中 ， 有 220 个 段落 实现 了 惠 


窃 结 果 的 准确 对 应 ， 仅 有 7 个 段落 的 筛选 错误 ， 归 其 原因 ， 在 
WordNet 计算 相似 度 时 出 现 误差 ， 正 确 段 落 并 没有 得 到 最 大 的 
相似 度 。 但 所 列 窃 段落 在 过 滤 后 存在 其 可 疑 段 落 中 ， 从 侧面 说 
明了 结果 有 效 性 。 
在 数据 集 上 作 本 文 基于 特征 对 应 的 虽 窃 结果 两 次 过 滤 ， 然 
后 用 基于 WordNet 的 跨 语 言 相似 度 检测 ， 与 文献 [18] 直 接 基于 
WordNet 的 跨 语 言 相似 度 检测 ， 其 准确 率 、 召 回 率 、F 值 对 比 
如 图 8 所 示 。 
图 中 可 以 看 出 ， 经 过 本 文 实验 ， 精 确 率 和 召回 率 都 进行 
了 提升 。 归 其 原因 ， 两 次 过 滤 将 一 些 在 词义 上 相似 但 译文 和 结 
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构 特征 差别 大 的 段落 都 进行 了 过 滤 ， 只 留 下 了 一 些 译文 和 结构 
特征 差别 小 但 词义 也 不 是 很 相近 的 段落 ， 所 以 精确 度 有 了 很 大 
提高 。 这 也 验证 了 本 文理 论 的 有 效 怕 


Ph 


o 


0.94 下 文献 计 8] 可 本 文 
0.92 
0.9 
0.88 
赔 0.86 
泗 0.84 
0.82 
0.8 
0.78 
0.76 
准确 率 
图 8 结果 分 析 图 


5 ”结束 语 


本 文 提 出 的 方法 跨越 了 语言 与 语法 之 间 的 不 一 致 问题 ， 从 
一 个 新 的 角度 进行 了 旨 窃 检测 。 但 正如 前 面 所 说 的 ， 跨 语言 列 
窃 检 测 才 刚刚 起 步 ， 还 存在 着 诸多 的 不 足 ， 需 要 不 断 去 完善 修 
改 。 首 先 ， 在 语料库 选取 上 ， 语 料 库 的 质量 将 直接 影响 最 后 的 
分 类 训练 结果 ， 所 以 未 来 需要 在 建设 高 质量 的 语料库 上 下 足 功 


瑟 


~ 


夫 ; 其 次 ， 在 特征 构建 时 ， 需 要 进一步 完善 和 挖掘 特征 ， 实 现 
对 翻译 特征 的 自动 挖掘 也 是 未 来 的 研究 重点 之 一 :最 后 ， 在 效 


率 上 ， 需 要 更 加 注重 效率 问题 ， 尤 其 在 面 对 大 数据 集训 练 时 ， 
这 也 是 未 来 需要 重点 研究 的 内 容 。 
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